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摘 要 : 为 了 提高 文本 分 类 的 准确 率 ， 并 解决 文本 图 卷 积 神经 网 络 对 节点 特征 利用 不 足 的 问题 ， 提 出 了 一 种 新 的 文 
本 分 类 模型 ， 其 内 在 融合 了 文本 图 卷 积 和 Stacking 集成 学 习 方 法 的 优点 。 该 模型 首先 通过 文本 图 卷 积 神经 网 络 学 习 
文档 和 词 的 全 局 表达 以 及 文档 的 语法 结构 信息 ， 再 通过 集成 学 习 对 文本 图 卷 积 提取 的 特征 进行 二 次 学 习 ， 以 弥补 文 
本 图 卷 积 节点 特征 利用 不 足 的 问题 ， 提 升 单 标 签 文本 分 类 的 准确 率 以 及 整个 模型 泛 化 能 力 。 为 了 降低 集成 学 习 的 时 
间 消 耗 ， 移 除了 集成 学 习 中 的 区 折 交 又 验证 机 制 。 融 合算 法 实现 了 文本 图 卷 积 和 Stacking 集成 学 习 方法 的 关联 ， 在 
R8, R52, MR, Ohsumed, 20NG 等 数据 集 上 的 分 类 效果 相对 于 传统 的 分 类 模型 分 别提 升 了 1.596. 2.596. 1196. 1296. 
7% 以 上 ， 该 方法 在 同 领域 的 分 类 算法 比较 中 表现 优异 。 
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Text classification combining text graph convolution and ensemble learning 


= Zhou Xuanlangt, Qiu Weigen, Zhang Lichen 
»- (Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: In order to improve the accuracy of text classification and solve the problem of insufficient utilization of node 
features by text graph convolution neural network, this paper proposes a new text classification model, which integrates the 
advantages of text graph convolution and Stacking integrated learning method. The model first learns the global expression 
of documents and words and the grammatical structure information of documents through text graph convolution neural 
network, and then secondary learns the features extracted by text graph convolution through integrated learning, so as to make 
up for the insufficient utilization of text graph convolution node features, and improve the accuracy of single label text 
classification and the generalization ability of the whole model. In order to reduce the time consumption of ensemble learning, 
the fusion algorithm removes the k-fold cross verification mechanism in ensemble learning. The fusion algorithm realizes the 
correlation between text graph convolution and stacking integrated learning method. The classification effect on R8, R52, Mr, 
Ohsumed, 20ng and other data sets is improved by more than 1.596, 2.596, 11%, 12% and 7% respectively compared with the 
traditional classification model. This method performs well in the comparison of classification algorithms in the same field. 
Key words: text representation; text classification; text GCN; ensemble learning; fusion model 


E j sz 度 学 习 模型 ， 受 限于 欧式 结构 数据 ， 对 于 文本 这 类 原本 就 属 
r= E 于 非 欧式 结构 的 数据 来 说 ， 则 需要 做 更 多 的 处 理 。 随 着 深度 
大 数据 时 代 ， 网 络 文本 数据 日 益 增长 ， 数 据 量 越 来 越 庞 。 ”学 习 进 一 步 的 发 展 ,图 神经 网 络 的 研究 得 到 越 来 越 多 的 关注 。 


大 ， 科 学 管理 和 组 织 这 些 数据 变 得 尤其 重要 ， 由 此 许多 文本 研究 人 员 发 现 ， 图 神 网 络 非常 适合 文本 这 类 非 欧 式 结构 数据 
] 


处 理 方法 中 应 运 而 生 。 文 本 分 类 是 自然 语言 处 理 中 非常 重要 的 处 理 名， 如 文本 图 卷 积 模型 (TextGCN)D1， 能 够 在 训练 中 
的 研究 领域 之 一 ， 大 量 的 应 用 使 用 了 文本 分 类 技术 ， 例 如 垃 。 动 学 习 单词 和 文档 的 嵌入 。 并 且 图 神经 网 络 能 够 整合 文本 的 
圾 邮件 检测 、 新 闻 过 滤 、 计 算 表 型 、 观 点 挖掘 、 情 感 分 析 和 结构 信息 ， 提 升 了 文本 的 表征 能 力 。 然 而 ， 在 最 终 的 分 类 方 
文档 的 组 织 (2l 等 。 面 ,图 神经 网 络 模 型 并 没有 充分 利用 神经 网 络 学 习 到 的 特征 。 
文本 分 类 方法 可 分 为 传统 方法 和 深度 方法 。 传 统 文本 分 为 了 解决 以 上 问题 ， 并 提升 文本 分 类 的 效果 ， 本 文 提出 
类 方法 主要 采用 的 是 机 器 学 习 方法 ， 对 文本 的 表示 及 分 类 进 了 新 的 文本 分 类 模型 TGCN-S(Text GCN-Stacking), 通过 使 用 
行 研究 。 传 统 的 文本 特征 提取 方法 ， 如 n-grams 法 ， 得 到 文 Stacking 集成 学 习 方 法 ， 对 文本 图 卷 积 得 到 的 特征 进行 拟 合 
本 的 表示 不 够 充分 ， 缺 少 文本 的 词 序 关系 外， 这 使 得 文本 的 。” 训练， 解决 文本 图 卷 积 特征 利用 不 足 的 问题 ， 提 高 分 类 效果 
表示 受到 限制 ， 处 理 方式 也 不 够 灵活 ， 且 在 分 类 方面 ， 只 是 ”和 模型 的 泛 化 能 力 ; 为 了 提高 集成 学 习 的 速度 ， 移 除了 集成 
采用 单个 分 类 器 进行 分 类 ， 分 类 精度 不 高 。 深 度 学 习 的 文本 ”学 习 中 的 交叉 验证 机 制 。 该 模型 的 有 效 性 在 R8，R52，MR， 
表示 方法 ,如 利用 卷 积 神经 网 络 (CNN)BI 和 基于 BiLSTMI4 的 “Ohsumed 和 20NG 等 数据 的 实验 上 得 到 验证 。 
循环 神经 网 络 (RNN)GI 学 习 局 部 连续 的 单词 序列 对 文本 进行 综 上 所 述 ， 本 文 提出 了 新 的 文本 分 类 模型 TGCN-S(Text 
表示 学 习 , 使 文本 的 表示 更 加 灵活 , 提升 了 文本 分 类 的 效果 。 GCN-Stacking)， 主 要 贡献 和 创新 点 概括 如 下 : 
然而 这 类 文本 表示 方法 无 法 获取 句子 的 语法 结构 信息 以 及 全 1) 本 文 利用 文本 图 卷 积 (Text GCN) 获 取 文 本 的 全 局 信 
局 信息 ， 使 得 分 类 效果 受到 限制 。 另 外 ，CNN 和 RNN 等 深 ” 息 和 文本 的 结构 信息 ， 解 决 传统 模型 无 法 获取 文本 的 结构 信 
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录用 定稿 周 玄 郎 ， 等 : 融合 文本 图 卷 积 和 集成 学 习 的 文本 分 类 方法 第 39 卷 第 9 其 
息 的 问题 ， 提 升 文本 的 特征 表达 。 1.3 分 类 器 
2) 优化 Stacking 集成 学 习 模块 , 移 除 k 折 交 叉 验 证 , 在 前 ， 不 管 是 传统 的 文本 分 类 ， 还 是 基于 深度 学 习 的 文 


保证 分 类 效率 的 同时 ， 降 低 Stacking 学 习 过 程 的 时 间 消 耗 。 ”本 的 分 类 方法 ， 在 提取 文本 的 特征 后 ， 使 用 的 单一 的 分 类 器 
将 softmax 分 类 器 蔡 换 为 Stacking 集成 学 习 分 类 器 ， 有 效 地 ”进行 分 类 ， 如 使 用 softmax 得 到 每 个 类 别 的 概率 ， 并 选择 概 


解决 了 文本 图 卷 积 特征 利用 不 充分 的 问题 ， 提 升 整个 模型 的 率 最 大 分 类 作为 文本 最 终 的 分 类 。 单 一 的 分 类 器 直接 进行 分 
分 类 效果 和 泛 化 能 力 。 类 ， 使 得 分 类 结果 一 次 就 确定 下 来 ， 在 出 现 分 类 失误 的 情况 
3) 融合 文本 图 卷 积 和 集成 学 习 的 优点 , 提出 新 的 文本 分 下 ， 无 法 对 分 类 结果 进行 修正 调整 。 集 成 学 习 是 由 多 个 弱 分 

类 模型 一 一 TGCN-S， 提 高 文本 分 类 的 准确 率 。 类 器 组 成 的 一 个 强 分 类 器 ， 可 以 作为 一 个 整体 的 分 类 器 用 以 
1 ”相关 工作 分 类 ， 能 够 很 好 的 解决 单个 分 类 器 分 类 能 力 不 足 的 问题 0 。 
集成 学 习 可 以 分 为 三 类 : Boosting 算法 和 Bagging 算法 以 及 


1.1 传统 的 文本 分 类 Stacking 算法 U4， 其 中 具有 代表 性 的 是 Stacking 算法 ， 在 灵 
传统 的 文本 分 类 的 方法 有 很 多 ， 如 支持 向 量 机 (SVMJZ， ”活性 和 扩展 性 方面 ，Stacking 算法 比 其 他 两 个 算法 都 要 好 9, 莉 ， 
K 最 近邻 (KNN) 和 随机 森林 (RF) 由 等 , 这些 文 本 分 类 方法 主要 ”更 具 效 率 优势 ,Stacking 模型 能 够 灵活 高 效 的 对 文本 进行 分 类 ， 
聚焦 于 文本 的 表示 以 及 相应 算法 的 研究 ， 例 如 词 袋 法 和 n-  ” 然而， 其 分 类 效果 依赖 于 传 入 Stacking 模型 的 文本 特征 。 
grams 表示 法 。 词 袋 法 将 文档 划分 为 一 个 单词 集合 ， 并 确定 基于 以 上 问题 ， 本 文 提 出 了 一 种 融合 文本 图 卷 积 和 
它们 在 文档 中 的 出 现 频率 。n-grams 法 9 将 文本 中 连续 的 n 个 Stacking 集成 学 习 的 文本 分 类 方法 TGCN-S， 利 用 文本 图 卷 
词语 作为 一 个 对 象 , 再 将 所 有 的 对 象 放 在 一 起 形成 一 个 集合 。 ” 积 提取 文本 特征 ， 通 过 集成 学 习 弥 补 原 图 卷 积 特征 利用 不 足 
词 袋 法 中 ， 文 本 的 最 终 表 示 结 果 与 集合 中 单词 顺序 无 关 叫 ， 的 问题 ， 提 升 文本 分 类 的 准确 性 以 及 模型 的 泛 化 能 力 。 为 了 
这 将 导致 句子 语法 特性 以 及 单词 间 的 相关 性 丢失 ， 使 得 文本 ”降低 集成 学 习 的 拟 合 时 间 ， 移 除了 stacking 集成 学 习 中 的 交 


表示 不 够 充分 ， 无 法 的 到 文本 全 局 信息 。 相 比 于 词 袋 法 ，n- 又 验 证 机 制 ， 以 提升 集成 学 习 部 分 的 拟 合 速度 。 

grams 能 够 的 到 单词 的 相关 性 ， 但 忽略 了 句子 的 句法 特性 ， 2 ”本 文 算法 

对 文本 的 表示 不 够 充分 ， 且 缺乏 灵活 性 ， 同 样 的 ， 使 得 文本 

的 全 局 信息 丢失 。 本 文 方法 通过 融合 文本 图 卷 积 和 Stacking 集成 学 习 方法 ， 

1.2 基于 深度 学 习 的 文本 分 类 提出 了 一 种 新 的 文本 分 类 算法 TGCN-S， 该 模型 结合 了 文本 
目前 ， 大 多 数 的 文本 分 类 方法 是 基于 深度 学 习 ， 其 中 代 图 卷 积 和 Stacking 的 优点 。 解 决 文本 图 卷 积 特征 利用 不 足 的 


表 性 的 如 应 用 于 语句 分 类 的 CNNB1， 基 于 双向 长 短期 记忆 问题 ， 提 高 文本 分 类 准确 度 和 模型 的 泛 化 能 力 。 为 了 降低 集 
BiLSTM! 的 RNN, DKE BERT 模型 外 等 。 成 学 习 部 分 的 时 间 消 耗 ， 移 除了 Stacking 集成 学 习 中 的 交叉 
Kim 于 2014 年 提出 了 基于 卷 积 神经 网 络 (CNN) 的 语句 ”验证 机 制 , 以 提升 集成 学 习 的 拟 合 速度 , 提高 文本 分 类 的 效率 。 
DB, 它 把 一 维 卷 积 应 用 在 文本 语句 上 ,分 类 准确 度 上 取 2.1 TGCN-S 模型 结构 
得 了 比较 好 的 结果 。Liu，Qiu 等 人 名 通过 将 LSTM 应 用 在 文 本 文 提出 的 (TGCN-S) 模型 如 下 图 1 所 示 。 本 文 将 模型 
本 分 类 中 ， 以 学 习 文 本 表示 ， 保 留 文本 更 长 的 单词 信息 ， 提 分 为 特征 提取 和 Stacking 集成 分 类 两 部 分 。TGCN-S 由 Text 
高 了 文本 的 表达 能 力 。Jacob 等 人 四 提出 了 BERT 模型 , 一 种 GCN 和 Stacking 两 个 部 分 连接 而 成 ， 将 Text GCN 提取 的 特 
预 训练 语言 的 文本 表示 模型 ， 在 大 量 文 本 语 料 中 训练 了 一 个 WEN Stacking 集成 学 习 的 输入 ， 并 将 Text GCN 分 类 结果 
通用 的 语言 表示 模 ， 能 够 捕获 单词 间 更 长 的 依赖 。 这 些 模型 ” 与 Stacking 第 一 层 分 类 结果 拼接 ， 作 为 Stacking 第 二 层 的 输 
( 的 出 现 ， 很 大 程度 上 解决 了 传统 分 类 方法 文本 表征 不 足 的 问 入 ， 形 成 残 差 连接 。 这 种 跳跃 式 连 接 的 方式 提升 两 个 模型 之 
= 题 , 但 是 没有 捕获 文本 的 结构 信息 和 全 局 信息 。CNN 与 RNN ” 间 的 关联 ， 增 强 了 Stacking 第 二 层 输入 的 特征 表达 。 最 终 通 
C 都 主要 是 针对 局 部 连续 的 单词 序列 ， 能 够 很 好 的 捕获 文本 中 过 Stacking 的 第 二 部 分 进行 分 类 , 得 到 文本 最 后 的 分 类 结果 。 
的 局 部 信息 ， 但 是 仍然 无 法 得 到 语料库 中 单词 的 全 局 共 现 信 ”在 图 1 中 ， 文 本 异 构图 的 黑 点 表示 文档 ， 白 点 表示 单词 ， 实 
息 以 及 文本 的 结构 信息 。 并 且 以 上 模型 都 局 限于 欧式 结构 的 线 表 示 文 档 与 单词 的 联系 ， 虚 线 表 示 单 词 之 间 的 联系 ， 根 据 
数据 的 学 习 ， 对 于 非 欧式 结构 的 数据 的 处 理 则 会 显得 捉 襟 见 ”文本 异 构图 计算 得 到 的 邻接 矩阵 作为 Text GCN 的 输入 。 
寸 ， 例 如 文本 数据 ， 如 果 不 进行 特殊 处 理 ， 则 很 难 捕获 文本 
的 结构 信息 。 
随 着 深度 学 习 技术 的 发 展 ， 图 神经 网 络 (GNN) 的 研究 得 
到 越 来 越 多 的 关注 。GNN 不 仅 具 有 参数 共享 、 降 低 计算 量 的 
优点 ,而 且 非 常 适合 文本 中 单词 之 间 非 欧式 结构 数据 的 处 理 ， 
取得 了 机 器 学 习 领 域 的 突破 。 GNN 还 能 够 提取 多 尺度 的 局 前 
空间 特征 并 抽象 组 合成 高 层 特征 。 通过 图 肉 入 ，GNN 能 够 学 
习 图 的 节点 、 边 以 及 子 图 的 低 维度 向 量 表示 由 ， 突 破 了 一 般 
机 器 学 习 需 要 依赖 手工 的 网 络 结构 设计 问题 ， 提 高 了 学 习 的 
灵活 性 。 在 文献 [8] 中 ，Cai 等 人 证 明了 图 神经 网 络 能 够 很 好 
的 处 理 具 有 丰富 的 关系 结构 任务 ， 能 够 在 图 嵌入 的 过 程 中 保 
留 图 的 全 局 信息 。Kipf 和 Welling 等 人 (MN 对 图 神经 网 络 进行 
了 简化 , 提出 了 一 种 图 卷 积 神经 网 络 模型 GCN, 该 模型 可 以 
获 高 阶 邻 域 特征 ， 提 升 文本 分 类 的 准确 率 。Yao 等 人 中 将 
GCN 运用 到 文本 分 类 中 ， 并 提出 了 Text GCN 模型 ， 对 语 料 
库 构 建 大 型 的 异 构图 ， 以 句子 和 单词 作为 图 中 的 节点 ， 通 过 
GCN 学 习 单 词 和 句子 嵌入 , 获取 文本 中 单词 的 全 局 信息 以 及 图 1 TGCN-S 总 体 流 程 图 
整个 文本 的 结构 信息 ， 最 后 得 到 文本 的 特征 。 Fig.1 TGCN-S Overall flowchart 
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2.2 ”特征 提取 


融合 文本 图 卷 积 和 集成 学 习 的 文本 分 类 方法 


本 文 主要 使 用 Text GCN 作为 特征 提取 器 ， 作 为 整个 模 


型 的 第 一 部 分 。 在 对 文本 进行 构图 过 程 中 ， 


将 单词 和 文档 作 


为 图 的 节点 ， 单 词 与 文档 之 间 的 连接 权 值 用 词 频 逆 文档 频率 


(TF-IDF) 表 示 ， 单 词 与 单词 之 间 的 连接 权 值 使 ) 


j 逐 点 互信 息 


(PMD 表 示 。PMI 的 计算 方式 如 下 : 
PG, j) 


PMI(i, j) -log pre 


pi ps TE? 


PO 


其 中 V 是 滑动 窗口 总 数 ,，N(i,〗) 表示 同时 
Ož NO 表示 包含 节点 i 的 滑动 窗口 数 ， 


_NO 
N 


ANL, J 


此 得 到 布点 i,j 之 间 的 边 的 权重 As 


定义 如 下 : 


PMI(i, j) i, j are w, PMI(i,j)>0 
TF —IDF; iis doc, j is w 
j ， 
1 i=j 
0 others 


在 式 ( 和 中，w 表示 单 词 ，doc 表示 一 个 文档 。 
正 值 时 , 表示 语料库 中 单词 的 语义 相关 性 较 高 ， 当 
午时， 表示 语料库 中 单词 


mm 


了 将 带 权 图 输入 到 一 个 简单 的 两 层 GCN 进行 学 习 


是 取 的 特征 z 可 以 用 式 (5) 计 算 。 最 后 将 节点 的 


P, j) 表示 同时 包 
ETAJER, PO 表示 滑动 窗口 包含 节点 的 概率 。 由 


(1) 


Q) 


G3) 
的 滑动 窗 


(4) 


当 PMI 为 
PMI 为 负 


的 语义 相关 性 很 低 或 者 没有 。 在 构 
建 异 构图 时 ， 只 在 PMI 为 正 值 的 节点 对 直接 添加 边 。 之 后 ， 


。 在 GCN 


第 二 层 得 到 词 文 档 骨 入 , 租 入 的 维度 与 标签 类 别 数 大 小 相同 。 


WRAZ F] 


sofimax 函数 中 ， 得 到 临时 的 分 类 输出 » W FROH o 


Z = AReLU (AXW,W, 
Y = softmax(Z) 


G) 
(6) 


上 述 公式 中 4_piap:， 而 4=4+1,。 4 是 n 阶 邻 接 和 矩阵 ， 


I,j& n 阶 单位 矩阵 ， 


W 分 别 是 特定 于 第 一 层 和 第 二 层 的 可 训练 的 权 
ReLU 是 层 间 的 激活 函数 。 
2.3 ”集成 学 习 部 分 


n 是 顶点 个 数 。D 是 4 对 应 的 度 矩 阵 ， 
HP DLA 。X 是 由 na 个 节点 的 特征 构成 的 特征 矩阵 。 


W, 


重 和 矩阵 。 


TGCN-S 的 第 二 个 部 分 就 是 Stacking 集成 学 习 ， 传 统 的 


Stacking 集成 模型 如 图 2 所 示 。 


Stacking 集 成 学 习 框架 


Test_new 


图 2 Stacking 集成 学 习 系 统 图 


2 p S S o 


Fig.2 Stacking Diagram of integrated learning systems 


传统 的 Stacking 集成 学 习 模型 (如 图 2) 对 多 个 基 分 类 器 


(Ck, (k-1,2, ..., 
器 对 训练 集中 的 数据 进行 预测 得 到 训练 集 的 预测 
2,...，m), 再 对 测试 集中 的 数据 进行 预测 得 到 测试 
预测 值 pjG-1, 2, 
RASE- E, $ 


m)) 进 行 训练 ， 然 后 将 多 个 训练 好 的 基 分 类 


值 Pi(i-l, 
\ 集 对 应 的 


…, m)， 最 后 将 多 个 基 分 类 器 得 到 的 预测 结 
接 成 新 数据 集 ， 各 个 基 分 类 器 对 同一 个 样 


本 的 预测 结果 组 合 在 一 起 作为 改 样本 的 新 特征 ， 训 


练 集 得 到 
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的 预测 值 组 合 在 一 起 作为 新 的 训练 集 特征 (Pl, P2, .…, Pm), 
测试 集 得 到 的 预测 值 组 合 在 一 起 形成 新 的 测试 集 特征 (p7, 
p2, .…, pm)。 然 后 将 得 到 的 两 组 特征 集 通过 Stacking 第 二 层 融 
合 分 类 器 进行 训练 和 预测 ， 得 到 最 后 的 分 类 。 
一 般 地 ，Text GCN 直接 利用 sofimax 对 GCN 中 得 到 的 
特征 进行 分 类 ， 并 以 此 作为 最 终 输 出 ， 其 对 训练 的 特征 并 没 
有 很 好 的 和 利用。 本文 TGCN-S 模型 融合 了 Stacking 集成 分 类 


以 及 Text GCN 优点 ， 在 使 用 softmax 对 GCN 中 得 到 的 特征 
进行 分 类 的 过 程 中 ， 还 利用 Stacking 集成 学 习 中 各 基 分 类 器 
对 GCN 学 习 到 的 特征 进行 二 次 拟 合 , 最 后 进行 融合 分 类 , 获 
得 文本 最 终 分 类 结果 。 

与 传统 的 Stacking 集成 学 习 不 同 ，TGCN-S 中 Stacking 


集成 学 习 部 分 包含 基 分 类 层 和 融合 层 。 第 一 层 基 分 类 层 由 5 
个 基 分 类 器 组 成 的 。 第 二 层 融 合 层 除了 直接 使 用 各 基 分 类 器 
的 分 类 结果 和 数据 , 并 整合 了 TextGCN 分 类 的 输出 结果 和 数 
据 ， 即 特征 提取 过 程 中 的 训练 和 预测 结果 了 ( 式 (6) 所 示 )， 形 
成 跳跃 式 连接 。 这 种 跳跃 式 连接 不 仅 增 强 了 文本 图 卷 积 入 
Staking 集成 模型 之 间 的 联系 ， 而 且 将 Text GCN 预测 效果 带 
入 Stacking 第 二 层 ， 提 升 了 融合 层 的 分 类 效果 。 为 了 降低 集 
成 学 习 部 分 的 时 间 消 耗 , 本 文 去 除 Stacking 的 交叉 验证 机 制 ， 
以 提高 模型 的 拟 合 速度 。 模 型 的 特征 组 合 过 程 如 图 3 所 示 ， 

其 中 Ci (i=1,2,3,4,5) 为 基 分 类 器 ，Tri 为 基 分 类 器 得 到 的 训练 
结果 ，Tei (i=1,2,3,4,5) 为 基 分 类 器 的 预测 结果 ，Train_set 是 


由 各 个 Tri 组 成 的 训练 集 ,Test_set 是 由 各 个 Tei 组 成 的 测试 集 。 


Pm 


Text-GCN 


TGCN 提 取 的 
训练 集 特征 
和 测试 特征 


Cl C2 Ga C4 C5 


Tr1] [re1] [Tr2| [Te2] [Tr3| [Te3 [Tr4 [Te4 [Tr5|| Te5 [Tro [Ted 


M Train_set Test_set y 


Siga pi 


Stacking 融 合 层 


图 3 新 特征 组 合 过 程 示 意图 


Fig.3 Schematic of the new feature combination process 


Stacking 第 一 层 是 由 多 个 基 分 类 器 组 成 ， 对 于 基 分 类 器 
的 选择 ,主要 遵循 的 原则 是 “各 个 基 分 类 器 准 而 不 同 ” 不 同 


的 基 分 类 器 之 间 要 有 所 差异 0231。 本 文 Stacking 集成 学 习 的 基 
分 类 层 所 采用 了 5 种 基 分 类 器 : 支持 向 量 机 (SVM)， 决 策 树 
(DT)， 随 机 森林 (RF)，k 最 近邻 (KNN) 以 及 高 斯 朴素 贝 叶 斯 
(Gaussian NB)。 一 般 认 为 ,这 5 种 分 类 器 具有 基础 性 的 作用 ， 
其 他 大 多 数 分 类 方法 基本 上 都 是 基于 这 5 个 中 某 一 个 或 多 个 
进行 的 改进 优化 ,另外 , 随 着 模型 复杂 性 和 模型 数量 的 增加 ， 
模型 整体 训练 的 时 间 必 然 增 加 ， 模 型 训练 拟 合 开销 也 会 随 之 
增加 。 基 于 以 上 考虑 ， 本 文 模型 Stacking 第 一 层 的 基 分 类 器 
以 上 诉 5 种 为 主 。 本 文中 ， 第 二 层 分 类 器 在 单个 机 器 学 习 分 
类 器 预测 的 基础 上 ， 采 用 投票 法 (voting) 给 出 最 终 分 类 结果 。 
实验 结果 与 分 析 部 分 也 证 明了 本 文选 择 的 合理 性 。 


3 ”实验 结果 和 分 析 
在 这 个 部 分 ， 本 文通 过 实验 对 本 文 分 类 模型 的 分 类 效果 


进行 验证 和 分 析 ， 并 与 其 他 优秀 的 模型 进行 对 比分 析 。 


:202205.00079v1 


chinaXiv 


录用 定稿 


3.1 数据 集 


ChinaXiv 合 作 期 刊 


AZAR, €i 融合 文本 图 卷 积 和 集成 学 习 的 文本 分 类 方法 第 39 卷 第 9 期 


本 文 主要 使 用 R8，Ohsumed，MR，R52 和 20NG 等 五 
种 数据 集 。 对 所 提出 的 TGCN-S 模型 进行 实验 对 比 ， 分 析 


TGCN-S 的 分 类 效果 。 


R8 数据 集 : RS 数据 集 分 离 自 路 透 社 语料库 ， 只 有 8 个 
类 别 ， 其 中 有 5485 个 训练 文档 和 2189 个 测试 文档 。 


Ohsumed 数据 集 : 是 


由 国家 医学 图 书馆 维护 的 重要 的 医 


学 文献 数目 的 数据 库 。 提 取 其 中 只 有 单一 分 类 的 数据 ， 构 成 


本 实验 的 训练 测试 用 例 , 其 中 3357 个 文档 用 于 训练 , 4043 个 


文档 用 于 测试 ， 总 共 7400 个 数据 。 
MR 数据 集 : MR 是 一 个 电影 评论 数据 集 , 每 个 评论 只 


和 正面 评论 ，5331 篇 负面 评论 。 


含 一 句 话 ， 其 中 有 53315 


R52 数据 集 : 也 是 分 


11314 个 文档 ， 测 试 集 
这 些 数据 由 于 是 文本 
因此 需要 对 这 些 数据 集 进 


6532 个 训练 数据 和 2568 个 测试 数据 。 
20NG: 是 一 个 含有 20 个 类 别 的 新 闻 组 数据 集 ， 训 练 自 


离 自 路 透 社 语料库 ， 有 52 个 类 别 ， 


uy 


有 7532 个 文档 。 
数据 , 并 不 能 直接 用 于 模型 的 训练 ， 
行 预 处 理 中 。 通过 预 处 理 , 得 到 表 1 


的 统计 信息 , 从 中 可 以 看 到 每 个 数据 集训 练 集 和 测试 集 的 大 小 。 


X 1 各 个 数据 集 的 统计 信息 


Tab. 1 Statistics for each dataset 


Dataset Docs Training Test Words Nodes Classes 


R8 7674 5485 2189 7688 15362 8 
R52 9100 6532 2568 8892 17992 52 
Ohsumed 7400 3357 4043 14157 21557 23 
MR 10662 7108 3554 18764 29426 2 


20NG 18846 11314 7532 42757 61603 20 


3.2 ”对比 模型 实验 数据 


本 实验 部 分 ,本文 主要 比较 的 文本 分 类 模型 有 以 下 几 种 : 


2014 年 提出 , 通过 在 预 训 
络 进行 句子 级 的 分 类 任务 


CNN: 针对 于 文本 分 类 的 卷 积 神经 网 络 趾 ， Kim 于 


练 的 词 向 量 之 上 训练 的 卷 积 神经 网 


o 


百分点 ， 比 其 他 文本 分 类 算法 的 精度 高 出 了 至 少 2 个 百分点 
DJ EU, 对 于 R52 数据 集 , 本 文 模型 比 其 他 模型 高 出 了 2.5 个 
百分点 以 上 ， 相 比 于 CNN 模型 ， 分 类 效果 提高 了 13 BH 
点 ， 在 Ohsumed 数据 集 ，TGCN-S 的 表现 比 Text GCN 模型 
的 表现 高 出 了 12 个 百分点 ， 比 其 他 的 分 类 模型 高 出 了 20 个 
百分点 以 上 外。 对 于 MR 数据 集 ， 本 文 TGCN-S 模型 在 测试 
精度 上 比 Text GCN 模型 高 出 了 接近 11 个 百分点 中 ， 比 其 他 
的 模型 都 高 出 了 接近 14 个 百分点 M1。 在 20NG 这 种 较 大 数据 
集 上 ，TGCN-S 模型 也 比 TextGCN 模型 高 出 7 个 百分点 ， 比 
其 他 模型 高 出 12 个 百分点 以 上 。 图 4 直观 的 展示 了 各 个 模 
型 在 所 用 数据 集 的 预测 结果 。 从 图 4 中 可 以 看 出 ， 本 文 提出 
的 模型 的 分 类 效果 都 优 于 对 比 模型 .图 上 的 的 数据 充分 说 明 ， 
Stacking 集成 学 习 能 够 对 文本 图 卷 积 学 习 到 的 文本 特征 进行 
更 高 效 的 利用 ， 能 够 在 不 同 程度 上 提升 分 类 效果 。 


0.9 
0.7 
0.5 | | 
0.3 E 
R8 R 


R52 Ohsumed M 20NG 


mCNN BLSTM Bi-LSTM mFastText mTextGCN mTGCN-S-vote 


图 4 模型 预测 结果 直方 图 
Fig.4 Histogram of model prediction 

从 表 2 的 数据 中 可 以 发 现 ， 本 文 提出 的 模型 对 不 同 的 数 
据 集 的 分 类 效果 有 着 不 同 的 提升 , 但 对 于 Ohsumed 和 MR 两 
个 数据 集 的 分 类 效果 没有 其 他 数据 集 的 结果 好 ， 原 因 在 
MR 数据 中 ， 存 在 多 个 极 性 评论 如 “这 部 电影 故事 很 丰富 ， 但 
是 太 恐 怖 了 ”。 同 样 的 ， 在 Ohsumed 数据 集中 各 种 医学 文献 
之 间 的 描述 是 相互 关联 的 ， 在 描述 某 种 病例 时 ， 会 提 及 与 病 
例 有 关 的 药物 和 信息 。 图 神经 网 络 虽 然 能 捕获 文本 全 局 信息 ， 
但 是 无 法 获取 文本 内 的 词 序 特征 ， 以 至 于 无 法 提取 文本 详细 


LSTM: 基于 长 短期 记忆 文本 分 类 模型 , 通过 使 用 最 后 


个 隐藏 状态 作为 整个 文本 
年 提出 。 


的 表示 形式 。 由 Liu 等 人 外 于 2016 


Bi-LSTM: 双向 长 短 
改版 ， 以 预 训练 的 词 嵌 入 


期 记忆 文本 分 类 模型 ， 是 LSTM 的 
作为 BiLSTM 员 的 输入 。 


FastText: 由 Joulin 等 人 05 于 2017 年 提出 的 简单 有 效 文 


本 分 类 模型 , 通过 将 单词 n-gram 嵌入 的 平均 值 作 为 文档 的 赂 


入 ， 再 将 得 到 的 文档 嵌入 


送 入 线性 分 类 器 进行 分 类 。 


Text GCN: 文 本 图 卷 积 中 ,由 Yao 等 人 于 2019 年 提出 的 基 


于 图 卷 积 的 文本 分 类 方法 
关系 为 整个 语料库 构建 大 


网 络 和 softmax 进行 学 习 分 类 。 


通过 本 文 模型 与 上 述 


， 该 方法 基于 单词 共 现 和 文档 单词 
型 异 构 文 本 图 ， 再 使 用 图 卷 积 神经 


几 个 模型 的 实验 对 比 ， 得 到 不 同 模 


型 的 在 不 同 数据 集 上 的 准确 率 , 其 各 自 预测 准确 率 如 表 2 所 示 。 


表 2 数据 集 在 各 个 模型 上 的 预测 准确 率 


Tab.2 Prediction ac 


curacy of datasets on each model 


Model R8 R52 Ohsumed MR 20NG 
CNN 0.9402 0.8537 0.4397 0.7498 0.7693 
LSTM 0.9368 0.8554 0.4113 0.7506 0.6571 
Bi-LSTM 0.9631 0.9054 0.4927 0.7768 | 0.7318 
FastText 0.9613 0.9281 0.5770 0.7514 0.7967 


TextGCN 0.9707 
TGCN-S-vote 0.9858 


0.9356 0.6836 0.7674 — 0.8634 
0.9604 0.8090 0.8828 0.9302 


如 表 2 所 示 ， 本 文 提 


出 的 TGCN-S 在 五 个 数据 集 上 的 测 


试 精度 都 表现 的 最 好 ， 且 


着 不 同 程度 的 提升 。 针 对 R8 数 


据 集 ，TGCN-S 的 表现 比 其 中 最 好 的 Text GCN 高 出 了 1.5 个 


1 
的 特征 ， 进 而 导致 分 类 效果 欠 佳 。 即 便 如 此 ， 本 文 方法 相对 
于 其 他 单个 分 类 器 来 说 ， 仍 有 非常 大 的 提升 。 这 也 说 明 融 合 
Stacking 集成 学 习 后 的 模型 ， 通 过 投票 机 制 能 够 有 效 的 提高 
了 文本 分 类 的 效果 ， 即 便 文 本 中 存在 多 极 性 的 描述 ， 也 能 得 
到 较 高 的 准确 率 。 这 些 实验 数据 也 证 明 本 文 模型 的 有 效 性 ， 
可 以 在 很 大 程度 上 提升 文本 分 类 的 准确 率 。 
单一 的 准确 率 并 不 能 很 好 的 确定 模型 的 质量 ， 为 此 ， 本 
文采 用 对 比 各 个 模型 的 宏观 F1(Macro-F1) 和 微观 F1(Micro- 
Fl) 来 评估 模型 的 性 能 。Macro-F1 5 Micro-F1l 是 综合 考虑 了 
模型 的 查 准 率 和 查 全 率 的 计算 结果 ,Macro-F1l 5j Micro-F1 的 
值 越 大 说 明 模 型 的 质量 越 高 ， 分 类 性 能 越 好 。 文 献 [外 指出 ， 
TextGCN 的 模型 的 分 类 效果 和 模型 质量 都 优 于 CNN, LSTM, 
BiLSTM, FastText 等 模型 ， 因此, 本 文中 主要 对 TextGCN 与 
TGCN-S-vote 模型 的 Macro-Fl = Micro-F1 值 进行 比较 ， 以 
对 比 判 断 本 文 模 型 TCGN-S-vote 的 性 能 。 各 个 数据 集 在 两 个 
模型 的 Macro-F1 与 Micro-F1 值 如 下 表 3 所 示 。 
表 3 各 数据 集 在 TextGCN 与 TGCN-S-vote 上 的 Fl 得 分 
Tab. 3 F1 score for each dataset on textgcn and TGCN-S-vote 

评估 标准 Model R8 R52  Ohsumed MR  20NG 

Text GCN 0.969 0.588 0.674 0.813 0.858 


Micro-Fl  TGCN-S- 
0.977 0.831 0.781 0.876 — 0.930 


vote 
Text 
0.933 0.711 0.683 0.758 | 0.853 
GCN 
Macro-Fl1 
TGCN-S- 
0.945 0.960 0.792 0.879 0.937 
vote 
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由 表 3 可 以 看 出 ， 本 文 提出 的 模型 在 总 体 上 的 Micro-F1 ”数据 集 上 的 收敛 速度 上 都 比 TextGCN 要 快 , 都 能 更 早 的 达到 
与 Macro-F1 的 得 分 都 比 Text GCN 模型 的 得 分 要 搞 ， 说 明 本 ”稳定 状态 。 同 时 ， 从 分 类 准确 率 的 角度 来 看 ， 本 文 提出 的 模 
文 提出 的 模型 相 比 于 TextGCN 模型 的 质量 更 高 , 模型 的 分 类 ”型 最 终 的 分 类 准确 率 都 比 TextGCN 的 准确 率 要 高 .图 5 的 实 
效果 也 更 好 。 为 了 对 比 模型 的 收敛 情况 , 将 TextGCN 模型 与 ”” 验 数据 表明 本 文 模型 的 有 效 性 。 
本 文 提出 的 模型 进行 比较 ， 通 过 每 个 epoch 的 准确 率 以 及 到 3.3 去 交叉 验证 的 集成 学 习 
达 稳 定时 的 状态 来 确定 模型 的 收敛 能 力 ， 实 验 结果 用 折线 统 为 了 简化 集成 学 习 模 块 ， 并 提高 整个 模型 的 训练 预测 速 
计 图 来 表示 ， 如 图 5 所 示 。 图 5 分 别 画 出 了 MR，R52，R8 — 度 ， 去 除了 Stacking 中 所 有 基 分 类 器 的 交叉 验证 机 制 ， 只 通 
数据 集 在 模型 TextGCN 模型 和 TGCN-S-vote 模型 的 各 个 ”过 随机 打 乱 的 方式 对 训练 集 和 测试 集 进行 处 理 ， 并 在 各 个 数 
epoch 的 准确 率 。 从 图 中 可 以 看 到 , 本 文 所 提出 的 模型 在 各 个 ” 据 集 上 进行 了 对 比 实验 。 实 验 结果 如 表 4 所 示 。 
表 4 去 交叉 验证 对 比 数据 


Tab. 4  Cross-checks the comparison data 


Dataset R8 R52 Ohsumed MR 20NG 
Kfoldt 31.64 225.54 61.02 27.73 253.32 
nKfoldt 11.21 76.10 33.26 5.26 100.26 
KP 0.9831 0.9538 0.8357 0.8758 0.9233 
nKP 0.9858 0.9604 0.8429 0.8828 0.9334 


EKR 4 中 ，Kfoldt 和 KP 分 别 表示 使 用 K 折 交 叉 验 证 ”分 类 器 会 有 不 同 的 分 类 效果 。 同 时 ， 在 这 五 个 数据 集中 ， 除 


Stacking 模型 所 花费 的 时 间 及 分 类 准确 率 , nKfoldt fll nKP 分 了 在 ohsumed 数据 集 上 ， 以 LightGBM 作为 融合 分 类 器 的 测 
os 别 表示 未 使 用 KK 折 交 叉 验证 Stacking 部 分 的 耗 时 及 对 应 的 分 。 试 精度 略 大 于 投票 法 之 外 ， 其 他 数据 集中 ， 投 票 法 的 测试 精 
类 准确 率 。 从 表 4 中 可 以 发 现 , 不 使 用 折 交 又 验 证 的 时 间 度 都 优 于 其 他 分 类 器 。 这 体现 了 投票 法 的 通用 性 ， 且 投票 法 
消耗 低 于 使 用 K 折 交 叉 验 证 的 时 间 消 耗 ， 因 为 在 Stacking 部 。 思想 简单 ， 易 于 实现 。 因 此 本 文 提出 的 模型 是 以 投票 法 作为 
分 少 了 -1 次 的 模型 的 拟 合 ， 因 此 时 间 有 所 减少 。 并 且 不 使 Stacking 模型 第 二 层 的 融合 分 类 器 。 
用 K 这 交叉 验证 的 分 类 准确 率 也 表现 出 不 低 于 使 用 K 这 交 表 5 融合 分 类 器 在 R8, R52, Ohsumed, MR, 
叉 验 证 的 分 类 准确 紊 。 这 是 因为 ，K 折 交 叉 验 证 原本 是 在 用 20NG 数据 集 上 的 表现 
在 数据 集 较 少 的 情况 下 ， 以 提高 模型 的 泛 化 能 力 ， 对 于 数据 Tab.5 The performance of each fused classifier on the R8, R52, 
集 较 多 的 情况 下 ， 进 行 交 叉 验 证 的 效果 则 收益 其 微 ， 还 会 影 Ohsumed, MR, 20NG datasets 
响 模 型 的 拟 合 速度 ， 本 实验 的 数据 集 就 是 如 此 。 因 此 ， 本 文 融合 分 类 器 R8 . R52 Ohsumed MR  20NG 
提出 的 模型 去 除了 Stacking 集成 学 习 交 叉 验 证 机 制 ， 以 降低 GaussianNB 0.9689 0.9537 0.7057 0.8786 0.7538 
模型 的 时 间 花 费 ， 提 升 模型 训练 预测 的 速度 的 同时 保持 良好 LinearRegression — 0.9783 0.9537 0.7289 0.7574 0.8192 
的 分 类 准确 率 。 LogisticRegression 0.9616 0.7736 0.3834 0.8673 0.4067 
训练 周期 与 准确 率 折线 图 DecisionTree 0.9726 0.9569 0.7682 0.8632 0.8547 
LightGBM 0.9836 0.0901 — 0.8217 0.8584 0.7738 
MR SVM 0.9671 0.8763 0.6747 0.8347 0.7563 


C Dos AdaBoost 0.9306 0.8000 0.4957 0.8736 0.3604 
ZEE S 
z 5 Bagging 0.9826 0.9532 0.7823 0.8788 0.8320 

O07 一 一 

< s cs Vote 0.9858 0.9604 — 0.8090 0.8828 0.9302 

- vote 
0.6 
4 ”结束 语 


本 文 提出 了 一 种 融合 文本 图 卷 积 (Text GCN) 和 Stacking 
集成 学 习 的 文本 分 类 方法 (TGCN-S)， 解 决 Text GCN 特征 利 


3 不 足 的 问题 ， 提 高 文本 分 类 准确 率 。 不 同 于 传统 方法 使 用 
3 f —— Text GON | —— Text GCN 单个 分 类 器 对 文本 分 类 或 者 深度 学 习 使 用 softmax 直接 对 
ee 二 Text GCN 提取 的 特征 进行 分 类 , TGCN-S 采用 Stacking 集成 

0 50 Eun 150 — 200 0 9 Tun 150 — 200 学 习 ， 对 Text GCN 得 到 的 特征 进行 二 次 学 习 ， 同 时 ， 去 除 
Stacking 集成 学 习 中 基 分 类 器 的 交叉 验证 机 制 ， 加 速 模 型 拟 

图 5 训练 周期 与 准确 率 的 折线 图 合 ， 最 后 通过 融合 层 得 到 样本 最 后 的 分 类 。 本 文 TGCN-S 模 

Fig.5 Line chart of training cycle and accuracy 型 在 R8, R52, MR, Ohsumed 以 及 20NG 等 数据 集 上 的 准确 率 

3.4 集成 学 习 融 合 层 的 对 比 实验 分 别 达 到 了 98.5896, 96.0496, 88.2896, 80.9096, 93.0296, 4H 
为 了 分 析 Stacking 模型 中 第 二 层 融 合 分 类 器 Vote 对 最 ”对 于 其 他 模型 有 着 很 大 的 提升 。 实 验 结果 表明 本 文 所 提出 的 


终 模型 分 类 效果 的 影响 ， 本 实验 通过 选择 9 种 常用 机 器 学 习 ” 模型 在 文本 分 类 方面 具有 较 高 的 识别 效果 ， 同 时 也 证 明了 该 
方法 作为 Stacking 第 二 层 的 融合 分 类 法 , 并 分 别 在 R8,R52， 方法 的 可 行 性 。 
Ohsumed, MR 以 及 20NG 这 五 个 数据 集 进 行 对 比 实验 。 九 种 本 文 对 于 Stacking 的 基 分 类 器 的 参数 只 是 凭借 经 验 设置 ， 
分 类 器 如 下 : 高 斯 贝 叶 斯 分 类 器 (GaussianNB), 线 性 回归 ”并 没有 对 这 些 参数 进行 优化 ， 未 来 研究 方向 可 以 对 这 些 基 分 
(LinearRegression), 32 辑 E] 归 (LogisticRegression), 决策 树 类 器 的 参数 进行 优化 ， 以 进一步 提高 整个 模型 的 分 类 效果 ， 
(DecisionTree), LightGBMU9 ,支持 向 量 机 (SVM),AdaBoostn7， ”提高 模型 的 分 类 精度 。 同 时 图 卷 积 学 习 到 的 特征 表达 缺少 语 
Bagging(8l 以 及 Voting 投票 法 。 实 验 结果 如 表 5 所 示 。 人 句 中 的 词 序 关系 ， 因 此 丰富 文本 的 特征 表达 也 是 未 来 研究 方 
从 表 4 中 可 以 看 出 ， 使 用 不 同 的 分 类 方法 作为 融合 层 的 IZ —. 


YE 


参考 文献 : 


[1] Kowsari, Meimandi J, Heidarysafa, et al. Text Classification Algorithms: 
A Survey [J]. Information, 2019, 10 (4): 150. 

[2] Li Qian, Peng Hao, Li Jianxin, et al. A Survey on Text Classification: 
From Shallow to Deep Learning [J/OL]. 2020. [2022-04-15]. https://doi. 
org/10. 48550/arXiv. 2008. 00364. 

[3] Kim, Yoon. Convolutional Neural Networks for Sentence Classification 
[C]. EMNLP. 2014. (2014-09-03) [2022-04-15]. https://doi. org/10. 
48550/arXiv. 1408. 5882. 

[4] ER, FUR, ARR, 等 . 基于 双向 LSTM 神经 网 络 模型 的 中 文 分 词 
D]. 中 文 信息 学 报 , 2018, 32 (02): 29-37. (Jin Chen, Li Weihua, Ji Chen, 
et al. Bi-directional Long Short-term Memory Neural Networks for 
Chinese Word Segmentation [J]. Journal of Chinese Information 
Processing, 2018, 32 (02): 29-37.) 

[5] Liu Pengfei, Qiu Xipeng, Huang Xuanjing. Recurrent Neural Network 
for Text Classification with Multi-Task Learning [J]. Proceedings of the 
Twenty-Fifth International Joint Conference on Artificial Intelligence, 
2016, 2873-2879. 

[6] Zhou Jie, Cui Ganqu, Hu Shengding, et a/. Graph neural networks: A 
review of methods and applications [J]. AI Open, 2020, 1: 57-81. 

[7] Yao Liang, Mao Chengsheng, Luo Yuan. Graph Convolutional Networks 
for Text Classification [J]. Proceedings of the AAAI Conference on 
Artificial Intelligence, 2019, 33: 7370-7377. 

[8] Cai Hongyun, Zheng Vincent W, Chang Chenchuan. A Comprehensive 
Survey of Graph Embedding: Problems, Techniques and Applications [J]. 
IEEE Transactions on Knowledge & Data Engineering, 2018, 30 (9): 
1616-1637. 

[9] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep 
bidirectional transformers for language understanding [J]. arXiv preprint 
arXiv: 1810. 04805, 2018. 

[10] Kipf, T, & Welling, M. Semi-Supervised Classification with Graph 
Convolutional Networks [C]. ICLR 2017. (2017-02-22) [2022-04-15]. 


JEDEPR, F: 融合 文本 图 卷 积 和 集成 学 习 的 文本 分 类 方法 


https://doi. org/10. 48550/arXiv. 1609. 02907. 

[11] Mehrotra K G, Mohan C K, Huang H, . Ensemble Methods [G]// 
Terrorism, Security, and Computation. Terrorism, Security, and 
Computation, 2017: 135-152. 

[12] 徐 继 伟 , 杨 云 . 集成 学 习 方 法 : 研究 综述 U] 云南 大 学 学 报 : 自然 
科学 版 , 2018, 40 (06): 1082-1092. (Xyu Jiwei, Yang Yun. Integrated 
Learning Methods: Research Review [J]. Journal of Yunnan University: 
Natural Sciences Edition, 2018, 40 (06): 1082-1092.) 

[13] HELE, Hirit, KAR, 等 . 基于 Stacking 集成 学 习 的 大 规模 文本 
层次 分 类 方法 [D] 情报 理论 与 实践 , 2020, 43 (10): 171-176+182. 
(Ran Yaxin, Han Hongqi, Zhang Yunliang, et al. Large-scale Text 
Hierarchical Classification Method based on Stacking Ensemble 
Learning [J]. Information Theory and Practice, 2020, 43 (10): 171- 
176182.) 

[14] 吴 挡 平 ， 张 忠 林 ， 草 婷 婷 . 基于 Stacking 策略 的 稳定 性 分 类 器 组 合 模 
型 研究 D] 小 型 微型 计算 机 系统 , 2019, 40 (05): 135-139. (Wu 
Dangping, Zhang Zhonglin, Cao Tingting. Research on Stability 
Classifier Combination Model Based on Stacking Strategy [J]. Small 
Microcomputer System, 2019, 40 (05): 135-139.) 

[15] Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text 
Classification [C]// Proceedings of the 15th Conference of the European 
Chapter of the Association for Computational Linguistics: Volume 2, 
Short Papers. 2017. 

[16] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient 
boosting decision tree [J]. Advances in neural information processing 
systems, 2017, 30. 

[17] Rehman Javed A, Jalil Z, Atif Moqurrab S, et al. Ensemble adaboost 
classifier for accurate and fast detection of botnet attacks in connected 
vehicles [J]. 
Technologies, 2020: e4088. 

[18] Wang Qi, Luo Zhihao, Huang Jincai, et al. A Novel Ensemble Method 
for Imbalanced Data Learning: Bagging of Extrapolation-SMOTE SVM 


Transactions on Emerging  Telecommunications 


[J]. Computational Intelligence and Neuroscience, 2017, 2017: 1827016. 


